مروری بر دشواریهای زبان فارسی در محیط دیجیتال و تاثیرات آنها بر اثر بخشی پردازش خودکار متن و بازیابی اطلاعات

نویسندگان

  • هاجر ستوده دانشیار گروه علم اطلاعات ودانش شناسیدانشگاه شیراز
چکیده مقاله:

هدفهای پژوهش: زبان فارسی، به سبب ویژگیهای خاصّ آن و در عین حال نهادینه نشدن سبک نگارش استاندارد، در رویارویی با محیطهای الکترونیکی، با دشواریهایی روبه‎روست که تأثیری بسزا بر اثربخشی بازیابی اطلاعات می‎گذارد. پژوهش حاضر می‎کوشد تا با بررسی متون و پیشینه‎های موجود، چالشهای نگارش فارسی، تأثیر آنها بر اثربخشی بازیابی اطلاعات، و پیشنهاد‎های ارائه شده در جهت رفع این دشواریها را مورد بحث و بررسی قرار دهد.اهمیت پژوهش: با تحلیل و مرور جامع متونی که دربارة چالشهای نگارش فارسی در محیطهای دیجیتال نگارش یافته است، می‎توان دانشی را که تاکنون در این باره گرد آمده است به تصویر کشید و کاستیها و پیشرفتهای به دست آمده در این زمینه را آشکار ساخت.روش پژوهش: روش پژوهش حاضر، متن‎پژوهی با رویکرد تحلیل محتواست که از روشهای پژوهش کیفی به شمار می‎آید. «پاراگراف»، «جمله» و «کلمه» به عنوان واحد تحلیل انتخاب شد، زیرا ممکن بود هر دشواری یا راهکار تنها در یک کلمه یا عبارت مورد اشاره قرار گرفته یا در جمله یا پاراگراف شرح داده شده باشد.یافته‎ها: آثار مورد بررسی، بیش از ٤٠ دشواری نگارشی را در رابطه با جستجو و بازیابی اطلاعات فارسی ذکر کرده‎اند. این گونه‎گونی نگارشی به نایکدستی و تطور بسیار در نگارش فارسی می‎انجامد که می‎تواند اثربخشی بازیابی را بویژه از منظر کاهش دقت یا ریزش کاذب و نیز کاهش جامعیت بازیابی، متأثر سازد. در نتیجه، ضروری است در طراحی الگوریتمهای سامانه‎های جستجو و بازیابی فارسی، به‎هنجارسازی تنوعات و چنددستیهای نگارشی و دستوری مد نظر قرار گیرد. تدوین استاندارد نگارش فارسی، استفاده از سیاهه‎های از پیش تعیین شده، تجهیز پایگاه اطلاعاتی به اصطلاحنامه و فرهنگهای املایی، و تدوین دستنامه یا راهنمای جستجو، از جمله راهکارهای ارائه شده است. این راهکارها با وجود جامع نبودن، کم و بیش اثربخش به نظر می‎رسند.نتیجه‎گیری: از آنجا که راهکارهای انسانی، نیازمند مشارکت فعّالانه و آموزش نویسندگان متون (تایپیستها و کاربران) است و از روندی بلندمدت و هزینه‎بر برخوردار است، حرکت به سوی راهکارهای خودکارسازی پردازش متن و نمایه‎سازی، ضروری است.

برای دانلود باید عضویت طلایی داشته باشید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

مقایسه تأثیر وضعیت طاق باز و دمر بر وضعیت تنفسی نوزادان نارس مبتلا به سندرم دیسترس تنفسی حاد تحت درمان با پروتکل Insure

کچ ی هد پ ی ش مز ی هن ه و فد : ساسا د مردنس رد نامرد ي سفنت سرتس ي ظنت نادازون داح ي سکا لدابت م ي و نژ د ي سکا ي د هدوب نبرک تسا طسوت هک کبس اـه ي ناـمرد ي فلتخم ي هلمجزا لکتورپ INSURE ماجنا م ي دوش ا اذل . ي هعلاطم ن فدهاب اقم ي هس عضو ي ت اه ي ندب ي عضو رب رمد و زاب قاط ي سفنت ت ي هـب لاتـبم سراـن نادازون ردنس د م ي سفنت سرتس ي لکتورپ اب نامرد تحت داح INSURE ماجنا درگ ...

متن کامل

بررسی مقایسه‌ای تأثیر برچسب‌زنی مقولات دستوری بر تجزیه در پردازش خودکار زبان فارسی

In this paper, the role of Part-of-Speech (POS) tagging for parsing in automatic processing of the Persian language is studied. To this end, the impact of the quality of POS tagging as well as the impact of the quantity of information available in the POS tags on parsing are studied. To reach the goals, three parsing scenarios are proposed and compared. In the first scenario, the parser assigns...

متن کامل

بازیابی اطلاعات جغرافیایی در محیط وب: مروری بر نوشته‌ها و ترسیم مدل مفهومی

هدف:ارائه مدل مفهومی برای بازیابی اطلاعات جغرافیایی.روش/ رویکرد پژوهش: از طریق مطالعه منابع مرتبط با حوزه بازیابی اطلاعات جغرافیایی، الگوی رایج شناسایی و سپس طراحی مدل مفهومی معماری نظام بازیابی اطلاعات مکانی انجام شد.یافته‌ها: تاکنون سه رویکرد اصلی برای بازیابی اطلاعات جغرافیایی شامل مدل‌های الگو-محور، مبتنی بر هستی‌شناسی، و ماشین‌آموز پیشنهاد شده است. استفاده از یک پایگاه جاینامه‌ای یا یک پای...

متن کامل

بررسی تأثیرات ریشه‌یابی در بازیابی اطلاعات در زبان فارسی

Using the language-specific behavior in information retrieval systems can improve the quality of the retrieved results significantly. Part of the word that remains after removing its affixes is called stem. Stemming process can be used for improving the relevancy of the results in information retrieval system. Different morphological variants of words (plural, past tense…) will be mapped into t...

متن کامل

اینفوکریستال‌ها و کاربرد آنها در بازیابی اطلاعات

هدف: هدف پژوهش حاضر، بررسی کاربرد مصورسازی اطلاعات، به‏ویژه فن اینفوکریستال، در فرآیند بازیابی اطلاعات، مصورسازی پرس‏وجوهای وزنی، و فضاهای برداری است. رویکرد/روش پژوهش: پژوهش حاضر با روش مطالعه منابع اطلاعاتی مرتبط با بازیابی اطلاعات، مصورسازی اطلاعات، و بررسی تأثیر مصورسازی به‏ویژه فن اینفوکریستال در تحلیل راحت نتایج جست‏وجو می‏باشد. یافته‏ها: مصورسازی اطلاعات، از توانایی دیداری انسان در تشخ...

متن کامل

بازیابی تصویرهای رقومی بر اساس روش‌ها و فنون خودکار در محیط وب و پایگاه‌های اطلاعاتی

افزایش حجم منابع دیداری و شنیداری در محیط وب باعث شده است که جامعیت و مانعیت نتایج بازیابی این منابع مورد توجه واقع شود. به‌دلیل ویژگی‌های خاص منابع دیداری و شنیداری رقومی مانند وضوح، رنگ، تراکم پیکسل‌ها، کیفیت صدا و ... رده‌بندی و سازماندهی آنها در محیط وب نیازمند استفاده از روش‌هایی است که علاوه بر اختصاص توصیفگرها (کلیدواژه‌ها)ی موضوعی به این ویژگی‌ها نیز توجه داشته باشد. از جمله رویکردهای ن...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


عنوان ژورنال

دوره 15  شماره شماره 4 (پیاپی 60)

صفحات  59- 92

تاریخ انتشار 2012-12-21

با دنبال کردن یک ژورنال هنگامی که شماره جدید این ژورنال منتشر می شود به شما از طریق ایمیل اطلاع داده می شود.

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023